图片识别的原理 代码翻译

您所在的位置:网站首页 on self-respect翻译 图片识别的原理 代码翻译

图片识别的原理 代码翻译

2023-03-27 23:57| 来源: 网络整理| 查看: 265

目标找到图片中身份证信息

1、预处理图片

def process(self, img, short_size=960): img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) h, w = img.shape[:2] if h < w: scale_h = short_size / h tar_w = w * scale_h tar_w = tar_w - tar_w % 32 tar_w = max(32, tar_w) scale_w = tar_w / w else: scale_w = short_size / w tar_h = h * scale_w tar_h = tar_h - tar_h % 32 tar_h = max(32, tar_h) scale_h = tar_h / h img = cv2.resize(img, None, fx=scale_w, fy=scale_h) img = img.astype(np.float32) img /= 255.0 img -= self.mean img /= self.std img = img.transpose(2, 0, 1) transformed_image = np.expand_dims(img, axis=0) out = self.sess.run(["out1"], {"input0": transformed_image.astype(np.float32)}) box_list, score_list = self.decode_handel(out[0][0], h, w) if len(box_list) > 0: idx = box_list.reshape(box_list.shape[0], -1).sum(axis=1) > 0 # 去掉全为0的框 box_list, score_list = box_list[idx], score_list[idx] else: box_list, score_list = [], [] return box_list, score_list

这段代码实现了对图像的预处理过程。

首先,使用 cv2.cvtColor 函数将图像从 BGR 颜色空间转换为 RGB 颜色空间。(转换排序次序)

然后,获取图像的高度 h 和宽度 w。如果 h < w,则表明图像的长边为宽度,短边为高度,此时计算需要将高度缩放到 short_size(默认值为 960)大小,并计算缩放后的宽度 tar_w。tar_w 需要减去 tar_w 对 32 取模的余数,并取 32 和 tar_w 中的较大值。如果 h ≥ w,则表明图像的长边为高度,短边为宽度,此时计算需要将宽度缩放到 short_size 大小,并计算缩放后的高度 tar_h。tar_h 需要减去 tar_h 对 32 取模的余数,并取 32 和 tar_h 中的较大值。(调整大小)

最后,使用 cv2.resize 函数将图像缩放到所计算出的大小,并对图像进行归一化,减去均值,除以标准差,最后将图像的通道维度转移到第一维。(得到一维图)

最后返回的是图像的框坐标和得分信息。

class SegDetectorRepresenter: def __init__(self, thresh=0.3, box_thresh=0.5, max_candidates=1000, unclip_ratio=2.0): self.min_size = 3 self.thresh = thresh self.box_thresh = box_thresh self.max_candidates = max_candidates self.unclip_ratio = unclip_ratio def __call__(self, pred, height, width): pred = pred[0, :, :] segmentation = self.binarize(pred) boxes, scores = self.boxes_from_bitmap(pred, segmentation, width, height) return boxes, scores def binarize(self, pred): return pred > self.thresh def boxes_from_bitmap(self, pred, bitmap, dest_width, dest_height): assert len(bitmap.shape) == 2 # bitmap = _bitmap.cpu().numpy() # The first channel # pred = pred.cpu().detach().numpy() height, width = bitmap.shape # print(bitmap) # cv2.imwrite("./test/output/test.jpg",(bitmap * 255).astype(np.uint8)) contours, _ = cv2.findContours((bitmap * 255).astype(np.uint8), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE) num_contours = min(len(contours), self.max_candidates) boxes = np.zeros((num_contours, 4, 2), dtype=np.int16) scores = np.zeros((num_contours,), dtype=np.float32) rects = [] for index in range(num_contours): contour = contours[index].squeeze(1) points, sside = self.get_mini_boxes(contour) if sside < self.min_size: continue points = np.array(points) score = self.box_score_fast(pred, contour) if self.box_thresh > score: continue # print(points) box = self.unclip(points, unclip_ratio=self.unclip_ratio).reshape(-1, 1, 2) # print(box) box, sside = self.get_mini_boxes(box) if sside < self.min_size + 2: continue box = np.array(box) if not isinstance(dest_width, int): dest_width = dest_width.item() dest_height = dest_height.item() box[:, 0] = np.clip(np.round(box[:, 0] / width * dest_width), 0, dest_width) box[:, 1] = np.clip(np.round(box[:, 1] / height * dest_height), 0, dest_height) boxes[index, :, :] = box.astype(np.int16) scores[index] = score return boxes, scores def unclip(self, box, unclip_ratio=1.5): poly = Polygon(box) distance = poly.area * unclip_ratio / (poly.length) offset = pyclipper.PyclipperOffset() offset.AddPath(box, pyclipper.JT_ROUND, pyclipper.ET_CLOSEDPOLYGON) expanded = np.array(offset.Execute(distance)) return expanded def get_mini_boxes(self, contour): bounding_box = cv2.minAreaRect(contour) points = sorted(list(cv2.boxPoints(bounding_box)), key=lambda x: x[0]) index_1, index_2, index_3, index_4 = 0, 1, 2, 3 if points[1][1] > points[0][1]: index_1 = 0 index_4 = 1 else: index_1 = 1 index_4 = 0 if points[3][1] > points[2][1]: index_2 = 2 index_3 = 3 else: index_2 = 3 index_3 = 2 box = [points[index_1], points[index_2], points[index_3], points[index_4]] return box, min(bounding_box[1]) def box_score_fast(self, bitmap, _box): h, w = bitmap.shape[:2] box = _box.copy() xmin = np.clip(np.floor(box[:, 0].min()).astype(np.int), 0, w - 1) xmax = np.clip(np.ceil(box[:, 0].max()).astype(np.int), 0, w - 1) ymin = np.clip(np.floor(box[:, 1].min()).astype(np.int), 0, h - 1) ymax = np.clip(np.ceil(box[:, 1].max()).astype(np.int), 0, h - 1) mask = np.zeros((ymax - ymin + 1, xmax - xmin + 1), dtype=np.uint8) box[:, 0] = box[:, 0] - xmin box[:, 1] = box[:, 1] - ymin cv2.fillPoly(mask, box.reshape(1, -1, 2).astype(np.int32), 1) return cv2.mean(bitmap[ymin:ymax + 1, xmin:xmax + 1], mask)[0]

这段代码实现了从二值化后的图像和预测值中获取框坐标和得分信息的功能。首先,使用 cv2.findContours 函数获取图像中的轮廓信息,并对所有轮廓进行循环。对于每一个轮廓,使用 get_mini_boxes 函数获取最小外接矩形的顶点坐标,如果矩形的边长小于最小框的大小,则跳过。然后,使用 box_score_fast 函数计算当前轮廓的得分,如果得分小于得分阈值,则跳过。接着,使用 unclip 函数扩展轮廓的边界,再使用 get_mini_boxes 函数获取扩展后的最小外接矩形的顶点坐标,如果边长小于最小框的大小,则跳过。最后,将最小外接矩形的顶点坐标按照图像的宽(取到图片中正方形)

这段代码实现了对输入的图像进行预测的功能。首先计算输入图像的缩放比例,然后使用 Image.resize 函数将图像缩放到 32 高,并将其转换为 numpy 数组。接着,将图像的像素值减去 127.5 再除以 127.5,转置图像的维度,并扩展图像的维度。然后使用 tensorflow 的 sess.run 函数运行图像的预测。最后,使用 converter 类的 decode 函数对预测结果进行解码,并返回结果。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3